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摘 要 日 常生 活 中 , 语言 的 使 用 往往 出 现在 菜 个 视觉 情境 里 。 大 量 认 知 科学 研究 表明 ，, 视觉 信息 与 语言 信 
息 加 工 模块 并 不 是 独立 工作 ,而 是 存在 复杂 的 交互 作用 。 本文 以 视觉 信息 对 语言 加 工 的 影响 为 主线 ,首先 对 视 
觉 信 息影 响 言 语 理解 ， 言语 产生 以 及 言语 交流 的 相关 研究 进展 进行 了 综述 ,其 次 , 重点 对 视觉 信息 影响 语言 加 
工 的 机 制 进行 了 探讨 。 最 后 介绍 了 关于 视觉 信息 影响 语言 加 工 的 计算 模型 ， 并 对 未 来 的 研究 方向 提出 了 展望 。 
关键 词 ”视觉 信息 ; 语言 加 工 ; 言语 理解 ; 言语 产生 ; 言语 交流 
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1 引言 技术 的 不 断 发 展 ， 人 工 智能 也 成 为 了 研究 热点 。 
究 者 也 开始 尝试 把 不 同 通道 的 信息 整合 进入 工 
日 常生 活 中 ， 人 们 经 常 同时 接受 来 自 不 同感 觉 AAMAR AEAEE NEERA T 


nee fae EES pe At Fu ty TH ae ` E 
通道 的 信息 。 例 如 ， 当 人 和 人 面对面 交流 时 ， 人 们 BM Rem ARIK, AEA AGE 


民 1., 2017; Heinrich & Wi 2017). 
的 耳 洒 在 听 到 话语 的 同时 ， 眼 睛 能 同时 看 到 相关 V Oset al, 2017; Heinrich & Wermter, 2017) 
eS V S i 加 工 来 自 不 同感 觉 通道 信息 的 认 知 模块 如 何 
的 视觉 信息 。 人 们 在 加 工 这 些 来 自 不 同 通道 的 信 i | aes rte 
: 202 , : m TIME 相互 影响 ， 又 如 何 完 成 来 自 不 同 通道 的 信息 整合 
息 时 ,往往 利用 不 同 的 认 知 模块 。 近 代 认 知 神经 
arenes PME ME 任务 ,是 认 知 心理 学 需要 研究 的 重要 问题 。 而 针 
科学 的 研究 表明 ， 人 脑 也 往往 利用 不 同 的 脑 区 对 Dv 
Se aap pase da 多 通道 信息 整合 原因 以 及 整合 机 制 的 问题 ， 
不 同 通道 的 信息 进行 加 工 (Binder et al., 1997; Grill- et en m = 、 
x b. 前 研究 尚 浅 。 本 文 将 重点 综述 近年 来 针对 视觉 
Spector & Malach, 2004)。 然 而 ， 也 有 研究 发 现 不 同 TN Aes 
的 认 知 模块 往往 不 是 在 独立 工作 ,而 是 相互 影响 息 的 加 工 如 何 影响 口语 信息 加 工 的 研究 进展 。 
^ SIS Te EN KE N FE A Hn MR m AP EY Tl 
先 通 过 介绍 语言 加 工 的 模块 化 理论 以 及 交互 到 
两 大 理论 来 引出 争议 问题 ; 其 次 介绍 视觉 信 ， 
响 语 言 加 工 的 表现 以 及 为 何 会 影响 语言 加 工 两 个 
问题 ; 最 后 将 介绍 视觉 影响 语言 加 工 的 计算 模 
1995; Eggermont, 2017)。 举 例 来 说 , 语言 的 “ 意 有 大 问题 ; 最 后 将 介绍 视觉 影响 语言 加 工 的 计算 模 


所 指 " 众 所 周知 ， 我 们 听 到 的 口语 词汇 往往 对 应 。 “站 对 林 来 的 例 究 进行 展 加 。 

着 视觉 世界 中 的 特定 物体 。 因 此 ,在 同时 加 工 口 。 ”2 ”模块 化 理论 与 基于 制约 的 理论 
语 和 视觉 信息 时 ,语言 会 引导 视觉 注意 ,视觉 信 
息 也 会 影响 语言 加 工 ， 听 觉 与 视觉 通道 的 信息 相 
互 影响 ， 共 同 完成 整合 任务 。 近 年 来 ， 随 着 计算 机 


od 


Ha 


的 (Beauchamp, 2016; Kuchenbuch, Paraskevopoulos, 
Herholz, & Pantev, 2014; Marslen-Wilson, 1975; 
Tanenhaus, Spivey-Knowlton, Eberhard, & Sedivy, 


WT NS NX up LE 


et 


语言 的 加 工 包 含 语言 理解 、 语 言 产生 等 多 种 
加 工 过 程 。 语 言 理解 、 言 语 产 生 过 程 又 细 分 为 词 
汇 识 别 、 句 法 解析 、 言 语 计划 等 过 程 。 这 些 语言 
加 工 的 过 程 是 独立 进行 ， 还 是 会 受到 其 他 信息 的 
收 稿 日 期 : 2018-02-28 影响 ,长 久 以 来 都 是 心理 语言 学 家 们 互相 争论 的 
* 国家 自然 科学 基金 委 与 德国 科研 基金 委 联合 资助 项 热点 。 上 世纪 80 年 代 早 期 , Fodor (1983) 提 出 了 语 
H (NSFC 61621136008/DFC TRR-169) 及 国家 自然 科 言 的 “模块 化 理论 ”， 该 理论 认为 人 脑 的 认 知 系统 


学 基金 委 项 目 (31571125, 31771212) 资 助 。 、 M 、 mre 
d so oa rn LT 由 许多 不 同 的 模块 构成 。 例 如 ， 在 语言 加 工 系统 
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有 负责 语音 加 工 的 模块 ， 有 负责 词汇 加 工 的 模 
块 ， 有 负责 句法 加 工 的 模块 等 等 。 每 个 模块 都 是 独 
立 的 加 工 单位 ， 其 活动 与 输出 不 受 其 他 信息 的 影 
响 。 举 例 来 讲 , 句子 的 理解 过 程 包 含 对 句子 语义 
信息 的 通达 、 句 法 结构 的 建构 等 过 程 。 根 据 模块 
化 理论 观点 , 句法 加 工 模 块 独立 于 语 境 、 语 义 等 
言 息 的 加 工 模块 ,负责 句法 加 工 的 模块 是 “封装 ” 
起 来 的 ,不 受 其 他 高 级 认 知 或 者 感知 觉 机 制 的 影 
响 。 当 然 ， 模块 化 理论 并 非 不 承认 高 水 平 的 信息 
(例如 语 境 ) 对 句法 加 工 的 影响 , 在 遇 到 一 词 多 义 
或 者 歧义 现象 时 ， 同 样 需要 根据 语 境 等 信息 来 确 
定 歧义 词 在 句子 中 的 语义 。 其 倡导 的 主要 观点 是 : 
高 水 平 信息 无 法 影响 句法 加 工 的 最 初 阶段 , 但 是 
会 在 句法 加 工 的 最 初 阶段 完成 后 给 予 反馈 ， 而 不 
是 直接 参与 到 句法 初级 阶段 的 加 工 过 程 中 来 。 

支持 模块 化 理论 的 代表 模型 是 花园 路 径 模 
型 。 该 模型 由 Frazier 和 Rayner (1982) 提 出 ， 并 得 
到 其 实验 结果 的 支持 。 作 者 认为 对 任何 一 个 歧义 
句 的 加 工 最 开始 只 考虑 一 种 可 能 的 句法 结构 ， 并 
且 最 初 句 法 结构 的 选择 只 是 纯粹 的 句法 加 工 模块 
起 作用 ,之 后 出 现 加 工 困难 之 后 才 会 依据 语 境 、 
语义 等 信息 进行 反馈 。 但 Altmann, Garnham 和 
Dennis (1992) 通 过 严格 地 控制 语 境 , 使 语 境 符 合 
歧义 句 多 种 句法 结构 的 其 中 一 种 ,发 现 恰当 的 语 


件 的 宇宙 ”中 属 语义 反常 的 词汇 ;“already (已 经 )” 
在 句子 “he thinks she won't get the letter. He's 
afraid he forgot to put a stamp on the already before 
he went to post it (iA 25 WA Z2 We IIS i REA 
他 在 去 邮寄 之 前 忘 了 在 已 经 上 贴 邮票 )” 中 属 句法 
反 常 词汇 。 每 种 条 件 下 的 词汇 又 分 为 四 组 , 一 组 
为 原始 词汇 (universe)， 其余 三 组 分 别 为 替换 掉 首 
音节 (uw)、 次 音节 (n) 以 及 三 音节 Qi) 的 非 词 。 ARK 

现 和 语 境 相 匹配 的 无 反常 条 件 下 , 次 音节 与 三 音 

节 替 换 组 的 跟 读 错误 率 最 高 ， 即 ,在 首 音节 不 变 

而 且 符合 语 境 的 条 件 下 被 试 会 将 其 跟 读 成 正常 词 ， 
说 明 语 境 这 种 高 水 平 的 信息 确实 会 影响 词汇 的 识 
别 过 程 ， 与 之 发 生 交 互 作用 。 

以 上 研究 都 支持 在 语言 加 工 过 程 中 , 句法 和 
语义 是 有 交互 作用 的 。 其 中 一 种 交互 作用 的 观点 
被 称 为 约束 满足 理论 (constraint satisfaction theory) 
或 者 基于 制约 的 模型 (constraint-based model) 
(MacDonald, 1993; MacDonald, Pearlmutter, & 
Seidenberg, 1994)。 该 模型 强调 了 语言 加 工 中 各 类 
言 息 即时 相互 作用 ， 认 为 语 境 、 句 法 使 用 频率 等 
言 息 可 以 即时 被 句法 加 工 所 使 用 ,初级 阶段 的 名 
法 选择 也 会 受到 影响 ,整个 句子 的 建构 过 程 是 各 
种 信息 交互 作用 、 相 互 制约 的 结果 。 例 如 ,在 上 野 
义 句 理解 中 ,可 供 选 择 的 句法 是 平行 的 , 会 受到 


境 可 以 移 除 歧 义 句 中 的 加 工 困 难 ， 直 接 选 择 与 语 
境 相符 的 句法 结构 。Altmann 等 人 (1992) 的 结果 并 
不 支持 模块 化 理论 ， 作 者 认为 句法 加 工 模块 并 非 
无 法 “渗透 ” 也 并 没有 “封装 "起 来 ， 语 境 这 种 高 
水 平 的 信息 可 以 自 上 而 下 地 影响 句法 的 最 初 选择 
策略 。 

除 此 之 外 ,模块 化 理论 出 现 之 前 已 有 研究 发 


语 境 信息 、 句 法 使 用 频率 以 及 语义 等 信息 的 制约 。 
靶 义 消解 则 是 一 个 约束 满足 的 过 程 ， 语 境 、 句 法 
使 用 频率 等 信息 提供 证 据 支 持 部 分 被 激活 的 句法 
结构 。 该 模型 得 到 了 众多 研究 的 支持 (Chen & Tsai, 
2015; Knoeferle & Guerra, 2016; Linzen & Jaeger, 
2016; MacDonald, 1993)。 除 语 境 、 频 率 等 语言 类 
信息 之 外 ,还 有 突显 性 更 高 的 视觉 情境 等 非 语言 


现 语言 加 工 系统 的 加 工 器 之 间 可 以 互相 传递 信息 ， 
各 种 加 工 过 程 之 间 也 会 相互 影响 。 例 如 , Marslen- 
Wilson (1975) 发 现 句 法 水 平和 语义 水 平 的 信息 可 
以 影响 词汇 识别 过 程 。 作 者 采用 影子 跟 读 任务 (the 
shadowing task) 考 察 了 语 境 对 词汇 识别 以 及 词汇 
整合 过 程 的 影响 。 被 试 需要 听 句 子 并 及 时 对 听 到 
的 词汇 进行 复述 ( 跟 读 任务 )。 目 标 词 的 类 型 分 为 语 
义 反常 、 句 法 反常 以 及 正常 词汇 三 个 条 件 ， 例 如 
H trie] “universe (宇宙 ) 在 句子 "the new peace 
terms have been announced. They call for the 


unconditional universe of all the enemy force (新 的 


和 平 条 款 已 经 宣布 了 。 他 们 呼吁 所 有 的 敌人 无 条 


信息 也 可 能 会 影响 句法 加 工 过 程 , 但 由 于 实验 技 
术 等 方面 的 原因 ， 早 期 对 这 个 问题 的 考察 较 少 。 
视觉 情境 范式 的 广泛 应 用 使 得 这 类 研究 如 雨 后 春 
筹 般 涌 现 出 来 。 


3 ”视觉 信息 影响 语言 加 工 的 表现 


已 有 很 多 来 自视 觉 情 境 范式 的 研究 证 据 支 持 
语言 的 加 工会 受到 视觉 场景 等 非 语言 信息 的 影 
响 。 视 觉 情境 范式 (the visual world paradigm, VWP) 
的 出 现 为 考察 视 知 觉 信 息 与 词汇 、 句 法 和 语义 等 
更 高 级 语言 加 工 的 交互 作用 打开 了 一 扇 大 门 。 这 
种 范式 最 突出 的 特点 就 是 在 被 试 观看 视觉 刺激 的 
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同时 向 被 试 呈现 听觉 语言 信息 ,要 求 被 试 根据 听 


指向 目标 物 的 眼 跳 潜伏 期 则 变 为 230 ms, 显著 长 


到 内 容 选 择 相 对 应 的 视觉 刺激 或 对 物体 进行 一 定 
的 操作 , 或 者 单纯 地 听 和 看 。 通 过 记录 被 试 的 眼 
动 来 评估 语言 加 工 过 程 中 视觉 注意 的 分 配 情况 ， 
进而 对 语言 加 工 的 机 制 进行 推论 。 视 觉 情境 范式 
由 Roger M. Cooper 于 1974 年 首创 ， 他 向 被 试 呈 
现 一 些 物体 图 片 ， 同 时 播放 一 些 短 文 录音 ， 发 现 
在 听 到 某 个 特定 的 词语 时 ， 被 试 会 更 多 地 注视 与 


于 不 呈现 竞争 物 的 条 件 。 作 者 认为 被 试听 到 “can-” 
的 时 候 会 产生 临时 歧义 ， 视 觉 信 息 中 竞争 物 的 呈 
现 影响 了 被 试 在 词汇 水 平 上 的 临时 歧义 消解 过 
程 。 在 词汇 水 平 上 , Chambers, Tanenhaus, Eberhard, 
Carlson 和 Filip (1998) 发 现 视觉 场 景 信息 中 的 语 用 
信息 (pragmatic factor) 和 介词 语义 信息 会 共同 作 
用 来 缩小 介 宾 短语 中 宾语 的 指 涉 范围 。 在 实验 中 ， 


听觉 信息 具有 语义 关系 的 图 片 。 比 如 , fEUTSI*JE 
济 (Africa)” 时 ， 对 语义 上 相关 的 “斑马 (zebra)”“ 狮 
子 (lion)”* 以 及 “ 蛇 (snake)”* 等 物体 的 注视 比例 比 无 
关 的 物体 更 多 , 而且 被 试 的 眼 动 与 文本 的 听觉 呈 
现在 时 间 上 是 紧密 相关 的 。 通 过 视觉 情境 范式 我 


作者 给 被 试 呈现 包含 有 可 以 装 下 “cube” 的 “big can 
(大 容器 )”， 不 可 以 装 下 “cube” 的 “small can (小 容 
器 ”以 及 其 他 干扰 物 的 视觉 场景 ,同时 让 被 试听 
句子 “put the cube inside the can (把 方块 放 到 容器 
中 )”。 结 果 发 现 被 试 并 不 是 注视 所 有 容器 类 物体 ， 


们 不 仅 可 以 揭示 语言 的 加 工 机 制 , 而 且 能 够 考察 
视觉 信息 如 何 影响 语言 的 加 工 过 程 。 


这 部 分 主要 介绍 关于 视觉 信息 影响 语言 加 工 
的 一 些 经 典 研究 ， 主 要 从 视觉 信息 影响 口语 理解 


以 及 言语 产生 两 个 方面 来 综述 视觉 信息 影响 语言 
加 工 的 表现 。 除 此 之 外 ,视觉 情境 范式 里 不 仅 有 
听觉 呈现 的 语言 ， 而 且 还 有 视觉 画面 的 呈现 ， 这 
和 单纯 的 语言 加 工 过 程 也 存在 差异 ， 这 里 将 会 对 
此 类 现象 进行 一 些 探讨 。 
3.1 ”视觉 信息 影响 口语 加 工 过 程 

视觉 信息 影响 音节 层面 的 口语 信息 加 工 。 早 


而 是 直接 注视 场景 中 可 以 装 下 “cube” 的 大 容器 。 
这 是 因为 视觉 场景 含有 “哪个 容器 可 以 放下 方块 ” 
的 语 用 信息 ， 而 且 这 些 语 用 信息 影响 了 个 体 对 介 
词 “inside (里 面 ” 的 理解 ,缩小 了 介 宾 短语 中 宾语 
的 指 涉 范围 。 
除 影响 单个 词汇 的 理解 过 程 之 外 ,视觉 信息 
还 会 影响 句法 加 工 过 程 ， 这 也 是 使 用 视觉 情境 范 
式 考察 最 多 的 一 部 分 。Tanenhaus 等 人 (1995) 的 研 
究 开 创 了 先河 ， 对 视觉 信息 如 何 影响 歧义 句 中 的 
句法 选择 进行 了 考察 ， 并 为 视觉 信息 对 句法 加 工 
的 影响 提供 了 充足 的 证 据 。 该 研究 选取 局 部 歧义 


期 发 现 的 “破格 克 效 应 ”(the McGurk Effect) 就 已 
经 发 现 了 音节 层面 视觉 与 听觉 之 间 的 交互 作用 
(McGurk & MacDonald, 1976). 实验 任务 要 求 被 试 
看 到 一 个 面孔 重复 发 音 “ga” 的 嘴 部 动作 ,并 听 到 
和 视频 中 嘴 部 动作 同时 出 现 的 声音 “ba”。 结 果 发 
现 , 虽然 听觉 输入 可 以 非常 清楚 地 被 知觉 为 “ba”， 
但 由 于 视觉 输入 的 面孔 口 型 的 影响 会 让 被 试 知觉 
为 “da”， 表 明 视 知觉 对 音节 的 感知 有 干扰 作用 。 
视觉 信息 可 以 影响 单个 词汇 的 理解 过 程 。 
Tanenhaus 等 (1995) 首 次 使 用 视觉 情境 范式 对 视觉 
言 息 如 何 影 响 单个 词汇 上 的 暂时 歧义 消解 进行 了 
探究 。 实 验 过 程 中 ,被 试 需要 在 听 到 词汇 “candy 
(糖果 )” 的 同时 看 包含 一 些 物体 的 图 片 ， 这些 图 片 
分 为 两 组 : 一 组 包含 目标 物 “candy” 以 及 干扰 项 ; 
另 一 组 包含 目标 物 “candy”， 与 “candy” 具 有 相同 
起 始 音节 的 竞争 物 “candle (蜡烛 )” 以 及 干扰 项 。 作 
者 发 现 如 果 视 觉 画 面 中 不 呈现 竞争 物 “candle”， 
被 试 指 向 目标 物 “candy” 的 眼 跳 潜 伏 期 为 145 ms, 
如 果 同 时 明 现 目标 物 “candy” 和 竞争 物 “candle”， 


名 作为 听觉 实验 材料 ， 例如， 句子 “Put the apple 
on the towel in the box (把 毛巾 上 的 苹果 放 到 盒子 
里 ”中 临时 歧义 部 分 是 短语 “on the towel (在 毛巾 
上 )”， 既 可 以 修饰 名 词 “apple (苹果 )”， 意 为 “毛巾 
上 的 苹果 ”， 也 可 以 指向 “put ( 放 )” 的 目标 位 置 ， 意 
为 “把 苹果 放 到 毛巾 上 ”。 和 听觉 刺激 同时 呈现 的 
视觉 刺激 包含 两 种 条 件 (如 图 D)， 单 表征 物 情境 
(1-referent， 左 图 ) 以 及 双 表 征 物 情境 (2-referents， 
右 图 )。 作者 的 假设 为 不 同 的 视觉 情境 会 使 被 试 有 
不 同 的 句法 选择 策略 ， 即 两 种 视觉 刺激 条 件 下 会 
对 歧义 短语 有 不 同 的 理解 ， 并 表现 为 不 同 的 眼 动 
模式 。 具 体 来 说 ， 单 表征 物 情 境 条 件 下 ， 由 于 只 有 
一 个 目标 物 ， 所 以 被 试 更 倾向 于 将 “on the towel” 
理解 成 和 动词 “put* 相 关 的 目的 地 , 会 有 更 多 的 错 
误 注视 在 毛巾 上 ; 在 双 表 征 物 情境 条 件 下 ， 由 于 
存在 两 个 目标 物 ， 被 试 需要 选择 其 中 一 个 做 为 接 
受 动作 的 客体 , 会 更 多 地 将 “on the towe HTA 
“apple” 的 修饰 语 ， 表 现 为 对 毛巾 错误 注视 概率 的 
减少 。 结 果 验 证 了 其 假设 ,在 句法 加 工 早期 单 表 
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图 1 Tanenhaus 等 (1995) 使 用 的 视觉 刺激 。 左 图 为 单 表征 物 情境 ， 右 图 为 双 表征 物 情境 ,被 试 在 看 图 片 的 同时 会 听 


到 局 部 歧义 句 “Put the apple on the towel in the box”. 


征 物 情境 条 件 下 的 错误 注视 概率 要 显著 多 于 后 者 ， 
视觉 情境 参与 了 句法 加 工 的 早期 阶段 ， 并 且 移 除 
了 临时 歧义 名 中 的 加 工 困难 。 作 者 认为 句法 加 工 
过 程 并 非 如 模块 化 理论 所 倡导 的 不 受到 其 他 信息 
影响 ,视觉 情境 提供 的 信息 可 以 即时 地 影响 大 脑 
对 句法 结构 的 选择 策略 ， 并 即时 地 应 用 在 句子 结 
构 歧 义 的 消解 上 。 这 与 Altmann 等 人 (1992) 的 研究 
结果 是 一 臻 的， 从 “ 语 境 ” 变 为 了 “视觉 情境 "”， 都 
支持 了 基于 制约 的 理论 。 

很 多 研究 利用 相似 的 范式 对 这 个 问题 进行 了 
重复 与 拓展 。 一 些 研 究 采用 和 其 相同 的 电脑 屏幕 
呈现 的 图 片 形 式 ， 还 有 部 分 研究 采用 呈现 实物 的 
方法 来 代替 电脑 呈现 。 例 如 ， 有 研究 考察 了 儿童 
与 成 人 在 视觉 与 语言 加 工整 合 上 的 差异 , 结果 发 
现成 人 可 以 将 语言 信息 (如 ,词汇 信息 ) 和 表征 物 
信息 (视觉 信息 ) 有 效 地 结合 , 移 除 句子 中 的 临时 
BX; 儿童 却 只 能 利用 听觉 句子 中 的 语义 和 句法 
信息 来 进行 句子 理解 ， 对 视觉 信息 的 利用 是 十 分 
有 限 的 (Snedeker & Trueswell, 2004)。 

除 视觉 信息 之 外 ,其 他 非 语言 信息 如 物体 的 
动 允 性 、 事 件 以 及 情景 记忆 都 会 和 语言 的 加 工 发 
生 交 互 作用 (Chambers & Juan, 2008; Chambers, 


as 
Ve 


\_/ | exam, 


Tanenhaus, & Magnuson, 2004; Lee, Chambers, 
Huettig, & Ganea, 2017; Leonard & Chang, 2014; 
Milburn, Warren, & Dickey, 2015)。 例 如 , Chambers 
等 人 (2004) 采 用 视觉 情境 范式 考察 了 非 语言 信息 
( 动 允 性 ，affordance， 指 的 是 环境 的 属性 使 得 动物 
个 体 的 某 种 行为 得 以 实施 的 可 能 性 ，Eysenck & 
Keane, 2000) 对 局 部 歧义 名 句法 加 工 过 程 的 影响 。 
实验 中 , 作者 给 被 试听 指导 语 “Pour the egg in the 
bowl over the flour (把 碗 里 的 鸡蛋 放 到 面粉 上 )”， 
其 中 , “in the bowl (在 碗 里 )” 既 可 以 修饰 名 词 “egg 
(鸡蛋 )”， 意 为 “ 碗 里 的 鸡蛋 ” 也 可 以 指向 “pour 
( 倒 )” 的 目标 位 置 ， 意 为 “把 鸡蛋 倒 人 碗 里 ”。 同 时 
呈现 两 种 真实 的 视觉 场景 并 让 读者 根据 听 到 的 指 
导语 操作 物体 (如 图 2)。 作 者 构建 了 两 个 条 件 : 一 
个 是 竞争 物 和 目标 物 都 是 液体 形式 的 鸡蛋 (都 可 
以 被 倒 在 面粉 上 ， 具 有 “pour ( 倒 )” 的 动 允 性 ); 另 
一 条 件 下 只 有 一 个 鸡蛋 是 液体 形式 。 结 果 表 明 ， 
在 第 二 个 条 件 的 场景 下 被 试 对 “bowl (Ii) BE E 
注视 概率 会 更 高 ， 更 容易 把 “in the bowl (EE HL)” 
理解 成 行为 的 目的 ， 这 表明 和 动作 相关 的 非 语言 
信息 影响 了 句法 的 早期 加 工 过 程 。 

情节 记忆 同样 会 影响 语言 的 加 工 过 程 (Chambers 


SC | eme, 


图 2 Chambers 等 2004) 使 用 的 视觉 刺激 示例 。 左 图 为 包含 两 个 液体 鸡蛋 的 双 表征 物 情 境 ， 右 图 为 只 包含 一 个 液体 


鸡蛋 的 单 表征 物 情境 。 
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图 3 Chambers 和 Juan (2008) 的 研究 使 用 的 视觉 刺激 
示例 。 从 方形 到 月 亮 位 置 标号 依次 为 1~9。 


& Juan, 2008; van Bergen & Flecken, 2017)。 例 如 ， 
在 Chambers fil Juan (2008) 的 研究 中 , 被 试 需要 看 
如 图 3 所 示 图 片 的 同时 听 三 个 指导 语 ， 分别 为 
“move the chair to area two (把 椅子 移 到 区 域 2)”, 
“now move/return the chair to area five (把 棒子 移 
到 / 放 回 区 域 5)", “now move the square to area 
seven (把 方块 移 到 区 域 7)”。 其 中 第 二 个 指导 语 是 
关键 指导 语 , 分 为 “move (移动 "和 “return ( 放 回 )” 
两 个 实验 条 件 ， 其 中 “return”* 条 件 需 要 第 一 个 指导 
语 产 生 的 情节 记忆 的 参与 。 结 果 发 现 ， 在 “return” 
条 件 下 , 被 试 在 听 到 “return” 的 时 候 会 出 现 指 向 椅 
子 未 移动 之 前 的 区 域 5 的 预期 眼 跳 ，“move” 条 件 
下 则 没有 。 实 验 表 明 听 者 的 预期 不 仅仅 基于 物体 
的 特点 ， 视 觉 场 景 产 生 的 情节 记忆 也 同样 会 影响 
被 试 对 句子 的 加 工 过 程 。 这 些 都 为 非 语言 信息 影 
响 句 子 加 工 过 程 提供 了 进一步 的 证 据 。 

此 外 , 不仅 静态 视觉 信息 对 句法 加 工 有 影响 ， 
动态 的 事件 也 会 影响 口语 理解 过 程 (Hafri, Trueswell, 
& Strickland, 2018; Knoeferle & Guerra, 2016; 


Knoeferle, Crocker, Scheepers, & Pickering, 2005). 
Knoeferle 等 人 (2005) 采 用 视觉 -情境 范式 考察 了 
图 片 所 呈现 事件 情境 是 否 可 以 影响 口语 句子 中 题 
元 角色 的 分 配 (thematic-role assignment)， 即 是 否 
影响 被 试 在 句子 加 工 中 施 动 者 (agent) 和 受 动 者 
(patient) 的 角色 分 配 。 在 实验 过 程 中 ,给 被 试 呈现 
一 个 视觉 事件 ， 如 图 4 所 示 , “princess (公主 )” 处 在 
一 个 既 在 给 “pirate (ji) IVE, 同时 又 被 “fencer 
(击剑 者 ”所 画 的 两 种 角色 状态 下 ( 即 公主 既 可 能 
是 受 动 者 也 可 能 是 施 动 者 )。 同 时 以 听觉 形式 给 被 
试 呈 现 两 种 条 件 的 指导 语 “the princess is apparently 
washing the pirate (公主 很 明显 在 清洗 海盗 )” 和 
“the princess is apparently painted by the fencer ( 公 
主 很 明显 在 被 击剑 者 画 )， 前 者 公主 作为 施 动 者 ， 
后 者 为 受 动 者 ,结果 发 现 ， 前 者 条 件 下 ,被 试听 到 
动词 “washing ( 洗 )” 会 出 现 更 多 的 指向 海盗 的 预期 
眼 动 , 后 者 则 更 多 的 看 向 击剑 者 。 实 验 表明 被 试 
已 经 从 视觉 情境 中 提取 出 该 事件 的 题 元 角色 的 分 
配 情况 , 一 旦 动词 出 现 , 句子 的 题 元 角色 分 配 就 
已 经 完成 。 作 者 认为 视觉 画面 中 提取 的 题 元 角色 
信息 加 速 了 口语 理解 中 题 元 角色 的 分 配 ， 描 述 某 
事件 的 视觉 场景 促进 了 口语 理解 的 过 程 。 
综 上 所 述 ,不 仅 静 态 图 片 和 真实 情境 能 够 影 
响 我 们 对 听觉 语言 信息 的 加 工 , 动态 事件 情境 信 
息 也 同样 会 影响 语言 的 理解 过 程 。 这 种 影响 不 仅 
体现 在 单个 词汇 水 平 ， 同 样 表现 在 语言 加 工 过 程 
中 的 句法 选择 策略 上 ， 甚 至 会 影响 我 们 对 施 动 者 
和 受 动 者 的 题 元 角色 分 配 。 模 块 化 理论 所 倡导 的 


图 4 Knoeferle 等 (2005) 使 用 的 视觉 刺激 示例 。 共 包含 三 个 


E, 其 中 左 侧 为 海盗 ,中 间 为 拿 着 水 桶 正在 清洗 海盗 的 


Ad. 右边 为 拿 着 画笔 正在 画 公 主 的 击剑 者 。 
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“封装 ”也 在 视觉 情境 范式 的 各 类 研究 中 受到 了 挑 
战 , 语言 的 加 工 并 不 是 独立 于 其 他 信息 的 加 工 ， 
而 是 与 其 他 信息 进行 动态 的 即时 交互 。 这 些 来 自 
语言 理解 的 研究 都 支持 了 基于 制约 的 理论 , 语言 
的 加 工会 实时 的 受到 其 他 各 类 信息 的 影响 和 制约 。 
3.2 ”视觉 信息 对 言语 产生 以 及 交流 过 程 的 影响 
3.2.1 ”视觉 信息 对 言语 产生 过 程 的 影响 

“ 听 ” 别 人 说 话 并 理解 语言 的 过 程 会 受到 视觉 
信息 的 影响 ,同样 ,我 们 “说 ”的 过 程 也 同样 会 受 
到 当前 视觉 画面 或 者 场景 的 影响 。 言 语 产 生 过 程 
多 发 生 在 某 个 特定 视觉 背景 之 下 , 个 体 需 要 对 场 
景 中 的 物体 进行 定位 ,与 此 同时 也 会 提取 物体 的 
视觉 特征 以 及 相关 的 语言 信息 。 有 研究 发 现 , 个 
体 在 表达 目标 物体 900 ms 之 前 就 会 注视 到 相关 的 
物体 (Griffin & Bock, 2000), 视觉 和 语言 信息 的 加 
工 密 不 可 分 , 需要 跨 通 道 合 作 才 能 完成 整个 言语 
产生 过 程 。 

已 有 研究 发 现 , 视觉 刺激 的 不 同 特征 会 影响 
言语 产生 过 程 。 例 如 ， 低 水 平 的 视觉 特征 会 影响 
语言 加 工 (Ostarek & Hiiettig，2017)。Rossion 和 
Pourtois (2004) 采 用 图 片 命名 任务 发 现 图 片 的 颜 
色 特 征 会 影响 图 片 的 命名 过 程 ， 带 有 颜色 的 图 片 
要 比 黑白 线条 图 片 的 识别 速度 快 ， 命 名 也 快 ， 而 
且 有 颜色 物体 的 命名 一 致 性 更 高 。Coco 和 Keller 


计划 、 编 码 以 及 产生 阶段 都 发 现场 景 的 扫 视 路 径 
相似 和 句子 产生 的 相似 有 很 高 的 相关 ， 即 对 场景 
的 扫 视 路 径 相 同 , 产生 的 句子 也 会 相似 。Ferreira， 
Foucart 和 Engelhardt (2013) 的 实验 4 为 了 考察 视 
觉 情境 范式 中 的 预 视 阶段 可 以 给 被 试 提供 何 种 信 
息 , 采用 了 言语 产生 范式 , 被 试 需要 看 视觉 场景 
在 规定 时 间 内 猜测 指导 语 内 容 。 结 果 发 现 , 在 
规定 时 间 内 ， 被 试 对 指导 语 的 猜测 正确 率 显 著 大 
于 了 随机 水 平 。 这 些 研 究 都 体现 了 视觉 信息 和 语 
言 产生 过 程 之 间 的 交互 作用 。 

在 言语 产生 领域 中 , 另 一 个 非常 重要 的 问题 
是 我 们 如 何 从 图 片 中 提取 语义 信息 。 这 个 问题 同样 
也 是 人 工 智 能 领域 的 一 个 难题 ,如 何 让 计算 机 “看 
图 说 话 ”? 来 自 计算 机 领域 的 研究 者 Vaidyanathan, 
Prud, Alm, Pelz fil Haake (2015) 以 皮肤 科 专 家 为 被 
试 ， 采 用 经 典 的 皮肤 病 图 片 作为 实验 材料 试图 建 
立 语料库 来 让 计算 机 “学 会 ”提取 图 片 中 的 语义 信 
A. 在 其 研究 中 , 每 个 专家 需要 对 29 幅 皮 肤 病 的 
图 像 进行 描述 ， 并 同时 记录 专家 的 眼 动 以 及 描述 
图 片 的 声音 数据 。 分 析 阶 段 ， 作 者 把 眼 动 以 及 声 
音 数 据 做 成 两 个 数据 流 并 且 严 格 地 匹配 形成 一 个 
“ 双 维 度 语料库 ”， 眼 动 数据 作为 视觉 单元 ， 录 音 
数据 作为 语言 单元 , 借助 机 器 翻译 的 技术 ,成 功 
地 对 图 像 进行 了 语义 标注 。 经 过 训练 的 转换 模块 


(2009) 使 用 视觉 情境 范式 , 采用 真实 场景 ,通过 
改变 所 呈现 场景 的 复杂 程度 和 画面 中 人 物 数 量 ， 
考察 了 视觉 信息 的 复杂 程度 和 特点 对 言语 产生 过 
程 的 影响 。 该 研究 发 现 视 觉 画 面 越 复杂 ， 人 物 越 
多 ， 被 试 就 会 需要 更 多 的 时 间 来 产生 句子 。 阔 下 
视觉 刺激 也 会 影响 言语 产生 过 程 , Gleitman, January, 
Nappa 和 Trueswell (2007) 发 现在 视觉 画面 呈现 之 
前 在 目标 位 置 呈 现 一 个 快速 (60~75 ms) 的 注意 捕 
捉 信 号 (黑色 方块 ), 结果 发 现 , 虽然 被 试 报告 并 
没有 发 现 注意 捕捉 信号 , 但 此 位 置 出 现 的 人 物 在 
句子 产生 过 程 中 被 作为 主语 的 概率 要 更 高 。 

Coco 和 Keller (2012) 更 为 直接 地 观察 到 了 视 
觉 场 景 和 言语 产生 之 间 的 关系 。 以 往 多 通道 加 工 
的 研究 发 现 ， 相 对 于 两 个 不 同 的 场景 ， 两 个 相同 
的 场景 被 试 会 有 非常 相似 的 扫 视 路 径 (scan 
pattern)。 因 此 作者 在 其 试验 中 ， 要求 被 试 根 据 提 
示 的 线索 (场景 中 所 包含 的 物体 ) 产 生 一 个 和 场景 
相关 的 句子 ,考察 对 场景 的 扫 视 路 径 和 句子 产生 
之 间 协 作 的 内 在 机 制 。 结 果 显 示 , 在 言语 产生 的 


可 以 基于 眼 动 数据 (视觉 信息 ) 产 生出 对 应 的 病情 
(语言 单元 )。 表 明 视 觉 和 语言 之 间 存 在 语义 上 的 联 
结 , 不 同 的 视觉 画面 在 注视 期 间 会 产生 不 同 的 包 
含 语义 信息 的 眼 动 数据 ,根据 这 些 数 据 可 以 很 好 
地 预测 出 对 应 的 语言 单元 。 
3.2.2 ”视觉 信息 对 言语 交流 的 影响 

言语 交流 作为 复杂 的 语言 加 工 现象 , 视觉 信 
息 的 参与 尤为 重要 。 双 方 的 视觉 注意 不 仅 会 因为 
对 方 语 言 和 视觉 情境 中 物体 的 发 生 转 移 ， 还 会 影 
响 对 方 的 状态 ， 继 而 影响 语言 加 工 过 程 。 有 研究 
ER, 对 话 双方 的 口 型 、 面 部 表情 、 反 馈 以 及 注视 
的 变化 等 视觉 信息 都 会 影响 双方 的 感知 觉 状 态 ， 
与 对 话 双方 的 语言 加 工 产生 交互 作用 ,影响 句法 加 
工 以 及 题 元 角色 分 配 等 过 程 (Carminati & Knoeferle, 
2013; Garoufi, Staudte, Koller, & Crocker, 2016; 
Knoeferle & Kreysa, 2012; Kreysa, Knoeferle, & 
Nunneman，2014)。 例 如 ，Carminati 和 Knoeferle 
(2013) 的 研究 发 现 讲话 者 的 带 情绪 的 面部 表情 会 
影响 听 者 的 视觉 注意 以 及 语言 理解 过 程 。 研 究 发 
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现 对 话 双方 对 对 方 的 视角 进行 捕捉 可 以 帮助 他 们 
更 好 地 理解 言语 的 内 容 , 并 且 对 后 续 发 言 更 好 地 
计划 (Tanenhaus & Brown-Schmidt, 2008). Knoeferle 
All Kreysa (2012) 发 现 被 试 能 够 根据 讲话 者 注视 的 
变化 预测 出 讲话 者 将 要 提 到 的 词汇 。 

对 话 双方 所 能 共同 获取 的 感知 觉 信息 在 言语 


流 中 占有 重要 的 地 位 。 视觉 呈现 的 物体 可 以 同时 
现 给 对 话 双方 , 形成 可 以 被 双方 同时 观察 到 的 
视觉 共享 区 域 , 研究 发 现 个 体会 即时 地 将 共享 的 视 
觉 信 息 应 用 到 目前 的 认 知 加 工 中 。 例 如 , Allopenna, 
Magnuson 和 Tanenhaus (1998) 此 前 发 现 ， 被 试 在 
听 到 目标 词 “beaker (烧杯 )” 之 后 会 看 向 和 其 起 始 
音 相 同 的 竞争 物 “beetle (甲虫 )”， 被 试听 到 的 声音 
是 通过 耳机 呈现 的 。 有 趣 的 是 , Tanenhaus 和 Brown- 
Schmidt (2008) 将 实验 过 程 变 成 听 者 和 讲话 者 的 
交互 对 话 过 程 ， 即 讲话 者 直接 对 听 者 的 对 话 ， 而 
非 通过 耳机 呈现 声音 ， 并 且 双 方 可 以 同时 看 到 一 
组 物体 。 结 果 发 现 ,视觉 信息 可 以 在 对 话 中 限制 对 
话 双方 的 知觉 状态 , 会 把 语言 的 指 涉 范围 (referential 
domain) 限 制 在 呈现 的 视觉 物体 上 , 语音 竞争 效应 
消失 了 ， 作 者 认为 双方 在 对 话 过 程 中 看 到 的 视觉 
信息 影响 了 双方 的 语言 理解 过 程 。 Brown-Schmidt 
和 Tanenhaus 等 人 针对 听 者 与 讲话 者 的 视角 做 了 
大 量 研究 ， 都 表明 对 话 双方 的 协作 状态 能 够 促进 
语言 的 加 工 过 程 ， 而 这 种 协作 状态 大 多 情况 下 是 
有 共同 感知 的 视觉 信息 提供 的 。 
视觉 信息 可 以 实时 地 为 语言 理解 提供 预测 线 
索 ， 提 高 交流 效率 。 除 去 视觉 场景 来 说 ，Huettig 
(2015) 认 为 语言 加 工 过程 中 预测 性 的 存在 的 一 个 
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“蛋糕 以 及 其 他 干扰 项 。 结 果 发 现在 被 试听 到 “eat 
( 吃 )” 的 时 候 就 已 经 有 指向 目标 物 “cake (HERR) AY 
AR Bk, 并 且 和 蛋糕 得 到 了 比 其 他 干扰 项 更 多 的 
注视 。 对 目标 物 的 注视 的 原因 不 单 是 对 句子 中 动 
词 特征 的 分 析 ， 即 “eat ( 吃 )” 后 面 要 跟 一 个 可 食 
的 物体 ， 而 是 源 于 视觉 场景 和 语言 表征 的 共同 
用 。 视 觉 场 景 首先 提供 了 线索 ,形成 各 种 物体 的 
视觉 表征 ， 这 为 后 续 句 子 中 特定 词汇 的 预测 提供 
了 基础 ， 双 方 可 根据 场景 中 提供 的 视觉 信息 更 好 
地 对 对 方 的 讲话 内 容 进行 预测 。 

综 上 ,言语 产生 过 程 中 , 个 体 从 场景 中 提取 
语义 信息 ， 也 因此 言语 产生 过 程 会 受到 视觉 画 函 
的 影响 。 不 仅 颜 色 、 画 面 复 杂 程 度 等 视觉 信息 会 
影响 言语 产生 过 程 ， 讲 话 考 的 情绪 面孔 、 注 视 变 
化 等 视觉 信息 都 会 影响 听 者 感知 觉 状态 ， 进 而 影 
响 其 语言 加 工 过 程 。 除 此 之 外 ,视觉 场景 还 能 》 
对 话 双 方 的 交流 提供 基础 ， 对 双方 的 言语 产生 内 
容 进 行 预测 ， 提 高 交流 的 效率 。 

3.2.3 ”视觉 信息 对 语言 理解 过 程 的 阻碍 

以 上 研究 表明 ,语言 加 工 不 是 独立 的 单 通道 
的 过 程 ， 而 是 各 种 信息 交互 作用 的 结果 。 视 觉 、 
触觉 、 听 觉 等 感觉 通道 都 会 影响 语言 的 加 工 。 视 
觉 通道 作为 人 类 接受 外 界 信 息 最 主要 的 通道 , 会 
实时 地 帮助 个 体 消 除 歧义 句 中 的 歧义 ， 分 配 题 元 
角色 ,对 后 续 产 生 的 词汇 进行 预测 来 协助 语言 的 
加 工 。 但 是 这 些 影响 并 非 都 是 促进 作用 
首先 , 视觉 信息 的 呈现 会 改变 我 们 对 语言 本 
来 的 理解 过 程 ,例如 , Pickering, Garrod fll McElree 
(2004) 等 人 指出 视觉 -情境 范式 中 图 片 的 呈现 改 


I 
"T ug 


o 


重要 作用 就 是 提高 双方 的 交流 效率 。 例 如 , 在 对 
话 双方 的 交流 过 程 中 ,， 经常 补 全 对 方 语 言 的 现象 
表明 一 方 对 另 一 方 的 言语 产生 内 容 进 行 了 预测 
(Clark & Wilkesgibbs，1986)。 而 视觉 场景 的 呈现 
则 更 进一步 提高 了 交流 的 效率 , 研究 者 采用 视觉 
情境 范式 对 语言 加 工 中 的 预测 性 进行 了 考察 ， 并 
发 现在 目标 词 还 未 出 现 之 前 就 产生 了 指向 目标 物 
的 眼 动 (Altmann & Kamide, 1999; Altmann, 2004; 
Altmann & Kamide, 2009; Hintz, Meyer, & Huettig, 
2017; Trueswell & Thompson-Schill, 2016; Staub, 
Abbott, & Bogartz, 2012). 例如 , Altmann 和 Kamide 
(1999) 的 研究 让 被 试听 句子 “The boy will eat/move 
the cake (男孩 将 会 吃 掉 / 移 动 蛋 糕 ) 的 同时 给 被 试 
呈现 一 个 视觉 场景 ,场景 中 包含 “男孩 ” 目标 物 


变 了 语言 理解 过 程 。 在 他 们 给 出 的 例子 中 ,被 试 


听 指 导语 “In the morning Harry let out his dog Fido. 


In the evening he returned to find a starving beast 
(早上 哈 瑞 放出 了 他 那 只 叫 费 多 的 狗 ， 傍 晚 回来 的 
时 候 他 发 现 了 一 只 饥饿 的 野兽 )”。 对 句子 理解 来 
Bi, "beast (野兽 )” 指 向 前 半 句 提 到 的 狗 “Fido ( 费 
多 )”， 如 果 同 时 给 被 试 呈 现 视 觉 图 片 “tiger CE 
EY, 被 试听 到 “beast”* 后 可 能 会 更 多 地 注视 “tiger”， 
即 视觉 信息 的 呈现 会 改变 我 们 对 语言 的 理解 。 除 
此 之 外 , 文字 版 的 视觉 情境 范式 中 更 能 体现 这 种 
视觉 信息 的 影响 。 在 Salverda 和 Tanenhaus (2010) 
的 研究 中 ,其 在 视觉 画面 中 用 文字 代替 物体 给 被 
试 呈现 目标 词 “bead”， 竞 争 词 “bear” 以 及 无 关 项 ， 
同时 听觉 通道 呈现 目标 词 “bead”。 结 果 发 现 被 试 
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对 竞争 词 的 注视 要 显著 多 于 无 关 项 ， 体 现 出 非常 
显著 的 竞争 效应 。Pickering 等 人 (2004) 的 研究 同 
样 也 质疑 这 种 语音 竞争 效应 是 由 于 视觉 呈现 的 词 
汇 影响 了 我 们 对 目标 词 的 识别 , 还 是 单纯 语言 加 
里 的 竞争 效应 ? 

其 次 , 视觉 画面 由 于 其 较 高 的 凸显 性 (salience) 
会 影响 个 体 语 言 表征 的 心理 模拟 过 程 。Altmann 
和 Kamide (2009) 的 研究 试图 考察 语言 发 生变 化 
时 ,是 否 心理 表征 也 会 随 之 发 生动 态 变化 。 被 试 
昕 句子 “The woman (will/is too lazy to) put the 
glass onto the table. Then, she will pick up the 


bottle, and pour the wine carefully into the glass (这 
个 女人 (会 / 太 懒 了 以 至 于 不 会 ) 把 酒杯 放 到 桌子 上 ， 
然后 ， 她 会 拿 起 酒 瓶 ， 把 红酒 倒 入 酒杯 中 ) 的 同 
时 看 一 幅 场 景 图 片 (如 图 5)。 结 果 发 现 ,被 试 对 
“table (桌子 )” 的 注视 概率 在 移动 酒杯 的 条 件 下 要 
显著 大 于 不 移动 酒杯 的 条 件 ， 表 明 语 言 引 起 了 心 
理 表征 的 模拟 ,在 移动 条 件 下 ,心理 模拟 的 酒杯 
位 置换 到 了 桌子 上 。 但 在 眼 动 数据 上 发 现 , 不 管 
是 在 哪个 条 件 下 ,对 于 图 片 中 酒杯 的 注视 概率 都 
要 大 于 对 于 桌子 的 注视 概率 , 这 表明 语言 表征 和 
视觉 表征 的 两 种 表征 机 制 产 生 了 竞争 效应 ,但 由 
于 视觉 画面 的 突显 性 更 大 ， 所 以 会 更 占 优势 ， 比 
心理 模拟 指向 的 “table” 得 到 更 多 的 注视 。 在 作者 
的 实验 2 中 ,作者 在 听 句 子 的 过 程 中 视觉 画面 在 
句子 呈现 的 时 候 由 灰 屏 替 代 ,， 结果 发 现 ， 对 桌子 
的 注视 概率 远 远 大 于 对 酒杯 的 注视 概率 , 语言 表 
征 的 心理 模拟 过 程 则 起 了 主导 作用 。 


图 5 Altmann 和 Kamide (2009) 使 用 的 视觉 刺激 示例 


最 后 ,视觉 画面 的 呈现 会 缩小 个 体 对 句子 中 
特定 词汇 的 指 涉 范围 。 在 传统 的 研究 语言 加 工 的 


实验 中 , 激活 扩散 模型 认为 听 到 某 个 词汇 ,心理 
词典 中 所 有 和 此 词汇 相关 的 词汇 都 有 可 能 得 到 激 
活 。 但 如 果 有 视觉 场景 或 者 图 片 呈 现 的 话 ， 被 激 
活 的 词汇 就 会 被 限制 在 图 片 中 所 呈现 的 几 个 物体 
Eo PKH, Altmann 等 人 (1999) 的 研究 中 指导 
语 为 "the boy will eat the cake”, [AJIT Fr rp Hi sz 
现 一 个 可 供 食用 的 物体 “cake (和 蛋糕 )， 在 听 到 词 
汇 “eat” 的 时 候 , “cake” 立 即 得 到 了 注视 。 视 觉 信 息 
限制 了 语言 加 工 中 可 能 被 激活 的 条 目 ， 并 不 能 
映 整 个 心理 词典 的 结构 。 


4 ”视觉 信息 在 语言 加 工 过 程 中 所 起 的 
作用 


以 上 概括 了 视觉 信息 影响 语言 加 工 多 个 方面 
的 表现 , 不 管 是 口语 理解 还 是 言语 产生 过 程 ， 都 
存在 视觉 信息 与 语言 加 工 的 跨 通 道 交 互 作用 。 视 
觉 信 息 为 何 会 影响 语言 加 工 过 程 ,在 语言 加 工 过 
程 中 起 着 何 种 作用 ， 对 这 些 问 题 探 讨 有 助 于 揭示 
视觉 信息 与 语言 信息 跨 通道 整合 的 机 制 。 本 节 尝 
试 对 此 进行 一 些 综述 和 探讨 。 

首先 ,视觉 信息 会 作为 大 脑 的 外 部 存储 ， 有 
利于 减少 语言 加 工 过 程 耗费 的 认 知 资源 。Findlay 
和 Gilchrist (2003) 区 分 了 两 种 视觉 信息 表征 方式 ， 
被 动 视觉 (passive vision) 与 主动 视觉 (active vision)。 
前 者 认为 个 体 对 视觉 图 像 的 理解 过 程 是 被 动 的 ， 
看 过 的 图 像 作为 视觉 信息 输入 并 存储 在 大 脑 中 作 
为 内 部 表征 以 供 后 续 使 用 ; 后 者 则 认为 对 视觉 画 
面 的 理解 是 主动 的 ,其 加 工 的 重要 特点 不 是 存储 ， 
而 是 个 体 对 视觉 画面 外 显 的 指向 性 注视 ， 即 ， 大 
脑 会 重新 把 注意 转移 到 目标 位 置 ， 以 通过 中 央 四 
注视 获取 更 精确 的 视觉 信息 。 这 两 种 观点 最 关键 
的 区 别 是 后 续 加 工 中 视觉 注意 是 否 会 转移 。 前 者 
把 视觉 画面 存储 大 脑 中 作为 内 部 表征 , 后 续 提取 
的 时 候 不 需要 重新 注视 , 注意 的 转移 是 内 隐 和 的 ; 
后 者 并 不 存储 视觉 画面 ， 只 需 存储 位 置信 息 ， 后 
续 加 工 需 要 通过 外 显 的 注意 转移 来 提取 视觉 信 
息 。Findlay 等 人 认为 视觉 信息 的 加 工 模式 是 后 
者 。Huettig, Gaskell 和 Quinlan (2004) 同 样 认为 后 
者 符合 认 知 系统 的 经 济 原则 ,这 样 视觉 感知 系统 
无 需 存储 大 量 的 视觉 信息 ， 而 是 把 外 部 世界 当成 
大 脑 的 外 部 存储 。 这 样 来 看 , 大脑 中 只 需 存储 物 
体 的 空间 位 置信 息 并 作为 一 个 指针 (pointer)， 当 
语言 加 工 需 要 提取 相应 视觉 信息 的 时 候 , 通过 指 
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针 指 向 特定 位 置 来 获取 所 需 信 息 ， 大 大 减少 了 语 
言 加 工 过 程 所 耗费 的 认 知 资源 。 
使 用 视觉 情境 范式 的 研究 同样 证 实 了 这 个 观 
点 。 在 视觉 情境 范式 中 听觉 刺激 呈现 之 前 会 有 对 
视觉 画面 的 预 视 阶段 ， 结 果 也 都 发 现 当 听 到 目标 
词 的 时 候 会 出 现 指向 目标 物 的 注意 转移 。 如 果 视 
觉 画面 存储 在 大 脑 中 ， 则 无 需 眼 动 便 可 获取 信息 ， 
这 种 注意 的 转移 恰恰 表明 大 脑 把 外 部 世界 当成 了 
外 部 存储 。Altmann (2004) 改 变 了 视觉 情境 范式 ， 
画面 在 预 视 阶段 之 后 消失 并 同时 呈现 空白 屏幕 和 
听觉 刺激 ,作者 称 之 为 “ 空 屏 范式 (the blank screen 
paradigm)", 结果 发 现 被 试 依然 会 看 向 日 标 物 曾经 
出 现 过 的 位 置 ， 这 个 结果 和 上 面 的 假设 是 吻合 的 ， 
被 试 储存 了 物体 的 空间 位 置信 息 ， 并 将 视觉 画面 
作为 了 大 脑 的 外 部 存储 。 不仅 如 此 ,更 有 研究 发 现 
和 目标 词语 义 相关 的 物体 在 空 屏 范 式 下 也 会 引起 指 
向 目标 物 的 眼 动 (De Groot, Huettig, & Olivers, 2016)。 
Richardson 和 Spivey (2000) 认 为 ， 这 种 空间 位 置 
言 息 的 存储 是 视觉 系统 利用 眼 动 协调 (Oculomotor 
coordinate) 来 实现 的 ， 视 觉 系统 并 非 直 接 记 录 整 
个 场景 ， 而 是 指引 眼睛 移动 到 相应 的 坐标 提取 相 
应 的 场景 。 视 觉 信息 和 语言 的 加 工 过 程 可 能 存在 
这 样 一 个 系统 : 语言 会 指向 相应 的 位 置 , 并 且 只 
有 当 眼 睛 到 达 目 标 位 置 的 时 候 关 于 这 个 位 置 的 具 
体 信息 才 会 提取 出 来 。 
其 次 , 正如 语言 信息 可 以 影响 我 们 对 物体 的 
分 类 一 样 ， 在 语言 习 得 过 程 中 ,视觉 信息 同样 可 
以 塑造 语言 的 加 工 过 程 。 目 前 很 多 研究 者 强调 了 
婴 幼 儿 与 成 人 中 语言 加 工 的 多 通道 特性 (Mani & 
Schneider, 2013; Yeung & Nazzi, 2014; Yeung & 
Werker, 2009)。 语 言 加 工 属 高 级 认 知 过 程 ， 与 之 相 
比 ， 视 觉 信 息 在 婴 幼 儿 的 早期 发 展 中 占有 更 为 重 
要 的 地 位 。 有 关 儿 童 词汇 识别 的 研究 发 现 , 幼儿 
听 到 一 个 词汇 的 时 候 可 以 提取 与 这 个 词汇 相 联系 
物体 的 感知 觉 信息 (Arias-Trejo & Plunkett, 2009; 
Johnson & Huettig, 2011; Johnson, McQueen, & 
Huettig, 2011; Mani, Johnson, McQueen, & Huettig, 
2013)。 更 有 研究 发 现 ,儿童 在 目标 词 出 现 之 前 就 
会 激活 其 形状 信息 ， 表 现在 对 和 目标 词 形状 相似 
物体 更 多 的 注视 上 (Bobb, Huettig, & Mani, 2016). 
Yeung 和 Werker (2009) 发 现 仅仅 是 教 婴 儿 区 分 两 
种 形状 不 同 的 物体 和 两 种 声音 之 间 的 联系 就 可 以 
帮助 婴儿 更 好 地 区 分 开 两 种 声音 。 这 些 研 究 都 表 


明 视 觉 信息 在 语言 习 得 和 加 工 中 起 着 重要 的 作用 ， 
感知 觉 信息 与 听觉 语言 信息 的 共同 激活 可 以 帮助 
儿童 在 听 到 一 个 词汇 的 时 候 , 在 其 所 处 的 场景 中 
更 快速 地 寻找 到 匹配 的 物体 。 很 多 研究 采用 视觉 
情境 范式 对 儿童 语言 理解 发 展 进行 了 多 方面 的 考 
BE, 发现 虽然 儿童 可 以 利用 视觉 信息 来 帮助 区 分 
声音 或 是 协助 语言 的 习 得 , 但 儿童 在 视觉 和 语言 的 
整合 功能 上 和 成 人 依旧 存在 差异 (Bunger，Skordos， 
Trueswell, & Papafragou, 2016; Huang & Snedeker, 
2009, 2011; Melissa, Snedeker, & Schulz, 2017). ffi 
如 ， 有 研究 发 现 儿童 在 概念 表征 和 句法 解 歧 上 与 
成 人 也 存在 着 显著 的 差异 (Pluciennicka, Coello, & 
Kalénine, 2016)。 也 有 研究 发 现在 第 二 语言 的 习 得 
上 , 二 语 者 和 母语 者 表现 为 不 同 的 影响 模式 (Ito， 
Pickering, & Corley, 2018; Noh & Lee, 2017; Pozzan 
& Trueswell, 2016)。 

最 后 ， 视 觉 信息 可 以 移 除 或 者 降低 句子 加 工 
中 的 加 工 困 难 。 在 本 文 第 二 部 分 已 列 出 多 种 视觉 
信息 可 以 移 除 或 者 降低 歧义 句 中 的 加 工 困 难 的 例 
证 。 例 如 , Tanenhaus 等 人 (1995) 使 用 视觉 背景 消解 
了 句子 的 暂时 歧义 , 在 双 表 征 物 语 境 下 ,被 试 的 
错误 注视 概率 减少 。 笔者 认为 , 惊异 理论 (Surprisal 
theory) 可 以 很 好 地 解释 视觉 信息 对 语言 加 工 中 名 
法 歧义 消解 的 影响 , 并且 已 有 研究 使 用 惊异 理论 
解释 句子 加 工 中 的 句法 选择 策略 (Staub & Clifton, 
2006)。 惊异 理论 是 计算 语言 学 家 Hale (2001) 提 出 
的 一 个 概念 ， 用 来 描述 句子 理解 过 程 中 遇 到 某 个 
词 后 产生 的 加 工 困 难 或 者 说 认 知 负担 ， 惊 异 系数 
(surprisal) 的 高 低 决 定 了 句法 加 工 难 度 。 举例 来 说 ， 
Tanenhaus 等 人 的 研究 使 用 的 局 部 歧义 句 “put the 
apple on the towel in the box” 由 于 “on the towel” HY 
IRR, PERE BY “in” YA RSS EMT AME. OL 
表征 物语 境 的 视觉 画面 中 ， 错误 注视 概率 减少 ， 
表明 视觉 背景 的 呈现 减少 了 介词 短语 “in the box” 
的 惊异 系数 。 视 觉 背景 能 够 影响 句法 加 工 策略 的 
过 程 可 以 被 看 成 降低 句子 加 工 困难 的 过 程 。 可 异 
的 是 ， 由 于 视觉 背景 难以 量化 , 计算 句子 中 惊异 
系数 的 改变 也 是 一 个 非常 大 的 难题 ， 此 类 研究 少 
之 又 少 ,笔者 只 发 现 有 研究 考察 了 世界 知识 对 于 
句子 中 惊异 系数 的 影响 (Venhuizen, Brouwer, & 
Crocker, 2016)。 

总 之 , 视觉 信息 在 语言 的 加 工 过 程 中 扮演 着 
非常 重要 的 角色 ,这 不 仅 表 现在 成 人 身上 , 在 儿 
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童 语言 的 不 同 发 展 阶段 中 也 占有 重要 位 置 。 视 觉 
信息 以 其 非常 高 的 突显 性 不 仅 能 够 为 其 他 认 知 过 
程 提 供 大 量 的 信息 作为 加 工 的 基础 ， 还 可 以 实时 
地 参与 到 认 知 加 工 中 来 。 对 于 语言 加 工 来 说 : 首 
先 , 视觉 信息 可 以 作为 大 脑 的 外 部 存储 降低 语言 
加 工 的 认 知 负担 ， 听 到 相应 词汇 再 去 相应 位 置 获 
取 更 精确 的 信息 , 增加 了 视觉 与 语言 加 工 之 间 的 


一 种 神经 网 络 模型 “简单 递归 网 络 模型 (simple 
recurrent network model, SRN)” (Elman, 1990)。 

但 以 上 的 这 些 模型 重点 都 放 在 语言 如 何 引 导 
视觉 注意 上 ,并 未 揭示 视觉 信息 如 何 影 响 语言 加 
工 过 程 。 据 笔者 了 解 ， 心 理 语言 学 中 还 没有 研究 
者 对 视觉 背景 影响 句法 歧义 消解 的 过 程 建立 模 
型 。 目 前 一 些 来 自 计算 语言 学 的 研究 者 尝试 把 视 


互动 ; 其 次 , 视觉 信息 极 大 地 促进 了 儿童 的 语言 
习 得 过 程 ， 帮助 儿童 更 好 地 把 语言 以 及 生活 中 的 
物体 进行 匹配 ; 再 次 , 视觉 信息 可 以 帮助 我 们 降 
低 句子 加 工 中 遇 到 的 加 工 困难 ; 最 后 ,如 第 3 部 
分 提 到 的 视觉 信息 对 后 续 词 汇 的 预测 以 及 对 言语 
交流 的 影响 上 看 ,视觉 信息 还 可 以 帮助 我 们 更 好 
地 预测 出 句子 后 续 将 会 输入 的 词汇 ,使 对 话 双方 
更 好 地 进行 交流 ， 当 双方 处 在 同一 个 场景 中 的 时 
IR, 能 够 减少 语言 产生 的 负担 。 这 些 都 是 视觉 信 
息 和 语言 加 工整 合 的 原因 , 但 目前 还 没有 对 为 什 
么 视觉 信息 和 语言 加 工 之 间 的 交互 有 确切 的 解释 ， 
本 节 希 望 能 够 为 揭示 这 种 跨 通道 整合 的 内 在 机 制 
提供 一 些 思路 。 


5 视觉 影响 语言 加 工 的 计算 机 模型 


图 论 假设 和 实验 论证 是 实践 应 用 的 基础 ， 科 
技 的 发 展 使 人 工 智能 技术 越 来 越 多 地 出 现在 生活 
的 方方面面 ， 如何 将 理论 基础 运用 在 科技 实践 上 
是 目前 我 们 面临 的 重要 问题 。 很 多 研究 者 开始 尝 
试 着 通过 构建 计算 机 模型 来 模拟 跨 通 道 的 交互 作 
用 ,以 促进 人工 智 能 领域 的 发 展 。 因 此 ,对 目前 
“视觉 信息 影响 语言 加 工 计算 模型 ”的 梳理 不 仅 有 
利于 我 们 对 这 种 交互 机 制 的 全 面 理解 ,而 且 有 利 
于 提起 对 实践 应 用 的 重视 。 目 前 的 模型 大 多 是 对 
词汇 水 平 的 视觉 -情境 范式 的 模拟 ， 旨 在 揭示 在 
口语 理解 过 程 中 语义 、 语 音 、 字 形 以 及 视觉 特征 
等 激活 的 时 间 进 程 。 这 类 研究 的 计算 机 模拟 相对 
较为 成 熟 ， 不 少 研究 使 用 之 前 的 计算 模型 对 视觉 
-情境 范式 的 研究 进行 模拟 取得 了 比较 可 靠 的 数 
据 (McClelland, Mirman, Bolger, & Khaitan, 2014; 
Smith, Monaghan & Huettig, 2013; Smith, Monaghan 
& Huettig, 2014, 2017)。 目 前 用 来 模拟 词汇 水 平 的 
视觉 -情境 范式 比较 成 熟 的 模型 有 “工作 记忆 模型 
(working memory model)” (Huettig et al., 2011), “P 
心 辐射 模型 (Hub and Spoke model, H&S)” (Dilkina, 
McClelland & Plaut, 2010; Smith et al., 2013) 以 及 


het 


觉 信息 与 听觉 语言 信息 在 语义 层面 建立 接口 来 模 
拟 这 类 实验 , 但 往往 停留 在 一 个 描述 性 的 层 鱼 
(Baumgartner, Beuck, & Menzel, 2012; McCrae, 
2009), (40, Venhuizen 等 (2016) 通 过 建立 向 量 模 
型 ， 考察 了 世界 知识 (world knowledge) 对 于 语言 
理解 中 加 工 困 难 的 影响 , 但 是 其 分 析 也 主要 是 把 
世界 知识 转换 成 事件 发 生 的 先后 顺序 , 来 估 测 不 
同 的 先后 顺序 下 句子 中 每 个 词汇 出 现 的 概率 ， 并 
没有 提出 一 个 系统 的 模型 对 整个 过 程 进行 模拟 。 
这 类 模型 的 困难 点 主要 是 难以 将 “情境 ”这 种 高 水 
平 的 信息 量化 , 使 得 计算 机 模拟 相对 较为 困难 。 
这 部 分 主要 简单 介绍 一 种 关于 视觉 信息 如 何 影响 
语言 加 工 的 模型 。 

来 自视 觉 情 境 范 式 的 研究 认为 这 种 视觉 和 语 
言 跨 通 道 的 交互 作用 发 生 在 语义 表征 层面 (Altmann， 
2004)。 这 和 Jackendoff 的 概念 语义 学 理论 相符 合 ， 
Jackendoff 根据 一 系列 的 语言 和 认 知 科学 的 证 据 认 
H, 存在 一 个 心理 表征 层面 “概念 结构 ” 这 个 层面 是 
各 种 认 知 信息 交流 的 接口 , 语言 、 感 知觉 、 运 动 等 信 
息 都 会 在 这 个 层面 发 生 交互 作用 (Jackendofft 1983)。 
McCrae (2009) 基 于 此 假设 构建 了 一 个 模型 ,来 试 
图 模拟 视觉 背景 信息 与 句法 解析 之 间 的 交互 作用 。 

McCrae 模型 最 终 目 的 是 建立 加 入 视觉 背景 
信息 后 的 句法 解析 器 (parser)， 即 在 有 视觉 信息 的 
影响 下 进行 句法 解析 。 模 型 的 建立 首先 需要 一 种 
句法 解析 器 对 句子 的 句法 进行 解析 ; 其 次 ,在 此 
解析 器 上 建立 接口 以 输入 视觉 信息 。 作 者 和 其 合 
作者 之 前 构建 了 一 个 权重 制约 的 依存 句法 解析 器 
(WCDG, Weighted constraint dependency parser), 
此 解析 器 提供 了 包含 多 种 非 语言 信息 的 一 般 性 接 
口 ， 对 于 研究 视觉 信息 对 句法 加 工 的 影响 有 很 大 
优势 。 作 者 借助 WCDG， 以 Jackendoff 的 理论 作 
为 基础 ,构建 了 此 模型 来 模拟 视觉 信息 与 句法 解 
析 之 间 的 交互 作用 。 模 型 由 三 个 模块 构成 ， 分 别 
为 : 语言 模块 、 概 念 结构 模块 以 及 视觉 感知 模块 
(如 图 6)。 
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Syntactic representation (句法 表征 )-> Semantic representation (语义 表征 ) 


Visual Scene Context (视觉 背景 ) 


图 6 模型 组 成 以 及 模块 间 的 交互 作用 (McCrae, 2009), Hr] 


背景 为 视觉 感知 模块 。 


由 于 视觉 信息 的 难以 量化 ， 该 模型 对 视觉 信 
息 模 块 的 处 理 是 把 视觉 信息 描述 的 事件 简化 成 题 
元 角色 的 分 配 ， 即 施 动 者 和 受 动 者 的 角色 分 配 。 
语言 信息 模块 中 ,作者 采用 德语 中 的 歧义 句 式 
“ 谁 对 谁 做 了 什么 (who did what to whom)", 最终 
通过 WCDG 来 接 和 视觉 模块 的 输入 的 角色 分 配 


句法 表征 为 语言 模块 ,语义 表征 为 概念 结构 模块 ， 视 觉 


这 些 问 题 将 会 极 大 促进 我 们 对 人 类 认 知 过 程 的 全 
面 理解 。 

第 一 ， 揭 示 视 觉 与 语言 整合 的 内 在 机 制 。 已 
有 研究 开始 关注 不 同 通道 信息 交互 作用 的 神经 机 
制 。 例 如 ，Hagoort (2005) 构 建 了 一 个 语言 加 工 的 
神经 结构 模型 ， 主要 从 布 洛 卡 区 着 手 分 别 阐 述 了 


的 信息 流 ， 并 和 语言 模块 中 的 角色 分 配 信息 进行 
匹配 ， 最 后 输出 模型 的 句法 解析 结果 。 作 者 在 实 
际 的 模拟 中 ,单独 采用 语言 模块 和 采用 加 入 视觉 
背景 信息 的 模块 对 歧义 名 进行 解析 的 结果 是 不 同 
的 ， 视 觉 信息 的 加 入 可 以 改变 本 身 的 句法 选择 策 
略 ， 成 功 地 对 此 类 现象 进行 了 模拟 。 


6 总 结 与 展望 


本 综述 重点 梳理 了 视觉 信息 如 何 影 响 语言 加 
工 过 程 的 研究 ， 从 口语 理解 、 言 语 产 生 以 及 言语 
交流 等 方面 概括 了 视觉 信息 影响 语言 加 工 过 程 的 
表现 。 总 体 来 看 , 语言 加 工 的 过 程 并 不 是 独立 进 
行 的 , 模块 化 理论 中 “封装 ”起 来 的 句法 加 工 模块 
也 受到 了 挑战 。 采 用 视觉 -情境 范式 考察 口语 理解 ， 
言语 产生 的 研究 都 发 现 视 觉 场 景 、 动 作 特 点 、 情 
节 记 忆 以 及 事件 等 信息 可 以 即时 的 影响 语言 加 工 
过 程 , 语言 的 加 工 是 汇集 了 各 类 不 同 通 道 的 信息 
实时 交互 作用 的 结果 。 视 觉 场 景 不 仅 可 以 作为 大 
脑 的 外 部 存储 器 降低 我 们 语言 加 工 过 程 中 的 认 知 
资源 消耗 而且 可 以 促进 语言 习 得 过 程 ， 降低 我 


语音 、 句 法 、 语 义 在 神经 结构 上 的 整合 过 程 ， 并 
且 强 调 了 左 侧 额 下 回 (LIFG, left inferior frontal 
gyrus) 对 韭 语言 信息 (例如 手势 ) 和 语言 信息 的 整 
合 的 重要 作用 。Peeters, Snijders, Hagoort 和 Özyürek 
(2017) 利 用 事件 相关 功能 磁 共 振 成 像 技术 也 同样 
发 现 左 侧 额 下 回 与 双 侧 杜 中 回 在 口语 和 视觉 情境 
交互 中 的 重要 作用 。 但是, 这 些 研 究 只 考察 了 “ 听 
声 识 物 ” 过 程 中 的 神经 机 制 , 视觉 信息 与 句法 加 
工 , 语义 加 工 等 交互 作用 的 神经 机 制 将 会 是 未 来 
非常 重要 的 研究 课题 。 

第 二 ， 如 何 利 用 现 有 研究 结果 来 指导 儿童 语 
言 发 展 中 的 视听 整合 过 程 。 多 个 研究 发 现 ， 婴 幼 
儿 语 言 加 工 同样 有 多 通道 特性 ,视觉 信息 可 以 塑 
造 语言 的 加 工 过 程 。 但 儿童 在 视觉 和 语言 的 整合 
功能 上 和 成 人 依旧 存在 差异 ， 并 不 能 很 好 地 利用 
视觉 信息 来 进行 语言 加 工 ， 因 此 ， 如 何 使 用 现 有 
的 研究 结果 与 理论 训练 与 干预 儿童 的 语言 习 得 过 
程 ， 以 提高 其 语言 加 工效 率 , 促进 儿童 认 知 发 展 
显得 尤为 重要 。 

BS, 视觉 通道 是 多 种 感觉 通道 中 的 一 种 ， 


们 语言 加 工 过 程 中 遇 到 的 加 工 困难 ， 提 高 语言 加 
工效 率 , 促进 言语 交流 过 程 。 

不 仅 很 多 研究 者 对 视觉 信息 影响 语言 加 工 的 
现象 展开 了 研究 ,而 且 也 同样 有 很 多 研究 考察 了 
语言 加 工 对 视觉 注意 的 引导 过 程 ， 视觉 与 语言 之 
间 的 交互 机 制 的 研究 和 解决 是 揭示 人 类 跨 通道 整 
合 机 制 的 关键 环节 。 但 目前 这 个 领域 还 有 很 多 版 
竺 解决 的 问题 ,将 来 的 研究 应 该 围绕 揭示 视觉 与 
语言 整合 的 内 在 机 制 ， 如何 利用 现 有 研究 理论 来 
指导 儿童 语言 发 展 中 的 视听 整合 过 程 ， 以 及 如 何 
促进 人工 智能 的 发 展 这 三 个 大 问题 来 展开 ,解决 


是 人 类 获取 信息 最 主要 的 通道 。 而 对 于 盲人 或 者 
有 视觉 缺陷 的 人 ,听觉 和 触觉 则 是 最 直接 和 有 效 
的 。 因 此 对 于 视觉 和 语言 加 工交 互 机 制 的 揭示 有 
助 于 推进 其 他 感觉 通道 和 语言 加 工交 互 作用 的 研 
究 。 例 如 ,在 一 些 情景 下 ,视觉 信息 起 到 的 是 语 境 
的 作用 , 若 以 其 他 通道 呈现 ， 也 可 能 同样 会 影响 
到 语言 的 加 工 过 程 ， 起 到 相同 的 效果 。 为 了 提高 
这 类 人 群 的 生活 质量 , 这 类 研究 必 将 有 广阔 的 发 
展 前 景 。 

第 四 ， 人 工 智能 领域 在 现代 信息 技术 的 带领 
下 飞速 发 展 ， 已 经 慢 慢 进入 到 现代 生活 当中 , 在 
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各 个 行业 也 得 到 了 广泛 应 用 。 人 工 智 能 技术 通过 
多 通道 的 整合 技术 能 够 实现 更 多 更 全 面 的 功能 。 
然而 , 关于 视觉 信息 与 语言 加 工交 互 作用 的 模型 
依旧 还 是 短 板 ， 如 何 量化 视觉 信息 ,并 快速 地 和 
语言 进行 匹配 ， 目 前 的 计算 模型 都 尚未 解决 这 些 
问题 。 因 此 视觉 和 语言 交互 作用 机 制 的 揭示 可 以 
使 我 们 了 解 这 些 信息 如 何 共同 作用 实现 视听 整合 ， 
从 而 为 人 工 智能 的 进一步 发 展 提供 科学 依据 。 
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Cross-modal integration of audiovisual information in language processing 
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Abstract: In daily life, the use of language often occurs in a visual context. A large number of cognitive 
science studies have shown that visual and linguistic information processing modules do not work 
independently, but have complex interactions. The present paper centers on the impact of visual information 
on language processing, and first reviews research progress on the impact of visual information on speech 
comprehension, speech production and verbal communication. Secondly, the mechanism of visual 
information affecting language processing is discussed. Finally, computational models of visually situated 
language processing are reviewed, and the future research directions are prospected. 
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